最新工作的一条有影响力的线重点关注的是针对可分离的线性分类的非规范梯度学习程序的泛化特性,并具有指数级的损失函数。这种方法概括地概括的能力归因于它们对大幅度预测指标的隐含偏见,无论是渐近的还是有限的时间。我们为此概括提供了另一个统一的解释,并将其与优化目标的两个简单属性相关联,我们将其称为可实现性和自我限制性。我们介绍了通过这些特性的不受约束随机凸优化的一般设置,并通过算法稳定性镜头分析梯度方法的概括。在这种更广泛的环境中,我们获得了梯度下降和随机梯度下降的尖锐稳定性边界,这些梯度下降即使适用于大量梯度步骤,并使用它们来得出这些算法的通用泛化界限。最后,作为一般边界的直接应用,我们返回使用可分离数据的线性分类设置,并为梯度下降和随机梯度下降建立了几种新颖的测试损失和测试精度界限,用于各种尾巴衰减速率的多种损耗函数。在某些情况下,我们的界限显着改善了文献中现有的概括误差界限。
translated by 谷歌翻译
Recent work attributes progress in NLP to large language models (LMs) with increased model size and large quantities of pretraining data. Despite this, current state-of-the-art LMs for Hebrew are both under-parameterized and under-trained compared to LMs in other languages. Additionally, previous work on pretrained Hebrew LMs focused on encoder-only models. While the encoder-only architecture is beneficial for classification tasks, it does not cater well for sub-word prediction tasks, such as Named Entity Recognition, when considering the morphologically rich nature of Hebrew. In this paper we argue that sequence-to-sequence generative architectures are more suitable for LLMs in the case of morphologically rich languages (MRLs) such as Hebrew. We demonstrate that by casting tasks in the Hebrew NLP pipeline as text-to-text tasks, we can leverage powerful multilingual, pretrained sequence-to-sequence models as mT5, eliminating the need for a specialized, morpheme-based, separately fine-tuned decoder. Using this approach, our experiments show substantial improvements over previously published results on existing Hebrew NLP benchmarks. These results suggest that multilingual sequence-to-sequence models present a promising building block for NLP for MRLs.
translated by 谷歌翻译
Inference from large autoregressive models like Transformers is slow - decoding K tokens takes K serial runs of the model. In this work we introduce speculative decoding - an algorithm to sample from autoregressive models faster without any changes to the outputs, by computing several tokens in parallel. At the heart of our approach lie the observations that (1) hard language-modeling tasks often include easier subtasks that can be approximated well by more efficient models, and (2) using speculative execution and a novel sampling method, we can make exact decoding from the large models faster, by running them in parallel on the outputs of the approximation models, potentially generating several tokens concurrently, and without changing the distribution. Our method supports existing off-the-shelf models without retraining or architecture changes. We demonstrate it on T5-XXL and show a 2X-3X acceleration compared to the standard T5X implementation, with identical outputs.
translated by 谷歌翻译
Denoising diffusion models (DDMs) have led to staggering performance leaps in image generation, editing and restoration. However, existing DDMs use very large datasets for training. Here, we introduce a framework for training a DDM on a single image. Our method, which we coin SinDDM, learns the internal statistics of the training image by using a multi-scale diffusion process. To drive the reverse diffusion process, we use a fully-convolutional light-weight denoiser, which is conditioned on both the noise level and the scale. This architecture allows generating samples of arbitrary dimensions, in a coarse-to-fine manner. As we illustrate, SinDDM generates diverse high-quality samples, and is applicable in a wide array of tasks, including style transfer and harmonization. Furthermore, it can be easily guided by external supervision. Particularly, we demonstrate text-guided generation from a single image using a pre-trained CLIP model.
translated by 谷歌翻译
高能量密度物理(HEDP)实验通常涉及在低密度泡沫内部传播的动态波 - 前。这种效果会影响其密度,因此影响其透明度。泡沫生产中的一个常见问题是产生有缺陷的泡沫。需要有关其尺寸和同质性的准确信息来对泡沫的质量进行分类。因此,这些参数使用3D测量激光共聚焦显微镜进行表征。对于每个泡沫,拍摄五个图像:两张2D图像,代表顶部和底部泡沫平面和3D扫描的侧面横截面的三张图像。专家必须通过图像集进行手动对泡沫质量进行分类的复杂,苛刻和疲惫的工作,然后才能确定是否可以在实验中使用泡沫。目前,质量有两个二元级别的正常与缺陷。同时,通常需要专家来对正常缺陷的子类别进行分类,即有缺陷但可能需要实验的泡沫。由于不确定的判断,该子类是有问题的,这主要是直观的。在这项工作中,我们提出了一种新颖的最先进的多视图深度学习分类模型,该模型通过自动确定泡沫的质量分类并因此有助于专家来模仿物理学家的观点。我们的模型在上表面和下表面泡沫平面上达到了86 \%的精度,整个集合中达到了82 \%,这表明了该问题的有趣启发式方法。这项工作中的一个重大价值是能够回归泡沫质量而不是二进制扣除,甚至可以在视觉上解释该决定。本工作中使用的源代码以及其他相关来源可在以下网址获得:https://github.com/scientific-computing-lab-nrcn/multi-view-foams.git
translated by 谷歌翻译
医学图像分析中使用的深度学习模型很容易由于其黑盒性质而引起的可靠性问题。为了阐明这些黑盒模型,先前的作品主要集中在识别输入特征对诊断的贡献,即功能归因。在这项工作中,我们探讨了反事实解释,以确定模型依赖于诊断的模式。具体而言,我们研究了胸部X射线内变化特征对分类器输出的影响,以了解其决策机制。我们利用一种基于样式的方法(StyleEx)来通过操纵其潜在空间中的特定潜在方向来为胸部X射线射线创建反事实解释。此外,我们建议本本芬大大减少生成解释的计算时间。我们在放射科医生的帮助下临床评估反事实解释的相关性。我们的代码公开可用。
translated by 谷歌翻译
已知深层神经网络容易受到对抗扰动的影响 - 较小的扰动会改变网络的输出并存在于严格的规范限制下。虽然通常将这种扰动讨论为针对特定输入量身定制,但可以构建通用扰动以更改模型在一组输入上的输出。普遍的扰动呈现出更现实的对抗攻击案例,因为不需要对模型的确切输入的认识。此外,通用攻击设置将泛化的主题提高到看不见的数据,在给定一组输入的情况下,通用扰动旨在改变模型在样本外数据上的输出。在这项工作中,我们研究了基于视觉探测器的自主导航系统的物理被动补丁对抗攻击。视觉轨道测定系统旨在推断两个相应的观点之间的相对摄像机运动,并经常被基于视觉的自主导航系统使用以估计其状态。对于此类导航系统,贴片对抗扰动构成了严重的安全问题,因为它可以用来误导系统到某些碰撞过程中。据我们所知,我们首次表明,通过在场景中部署补丁的对抗攻击,可以显着增加视觉探针模型的错误差。我们提供有关合成闭环无人机导航数据的评估,并证明实际数据中存在可比漏洞。在https://github.com/patchadversarialattacks/patchardversarialateacks上提供了提出方法和报告实验的参考实现。
translated by 谷歌翻译
由于它们在计算机视觉,图像处理和其他人领域的优异性能,卷积神经网络具有极大的普及。不幸的是,现在众所周知,卷积网络通常产生错误的结果 - 例如,这些网络的输入的小扰动可能导致严重的分类错误。近年来提出了许多验证方法,以证明没有此类错误,但这些通常用于完全连接的网络,并且在应用于卷积网络时遭受加剧的可扩展性问题。为了解决这一差距,我们在这里介绍了CNN-ABS框架,特别是旨在验证卷积网络。 CNN-ABS的核心是一种抽象细化技术,它通过拆除卷积连接,以便在这种方式创造原始问题的过度逼近来简化验证问题;如果产生的问题变得过于抽象,它会恢复这些连接。 CNN-ABS旨在使用现有的验证引擎作为后端,我们的评估表明它可以显着提高最先进的DNN验证引擎的性能,平均降低运行时间15.7%。
translated by 谷歌翻译
异常检测是一种既定的研究区,寻求识别出预定分布外的样本。异常检测管道由两个主要阶段组成:(1)特征提取和(2)正常评分分配。最近的论文使用预先训练的网络进行特征提取,实现最先进的结果。然而,使用预先训练的网络没有完全利用火车时间可用的正常样本。本文建议通过使用教师学生培训利用此信息。在我们的环境中,佩带的教师网络用于训练正常训练样本上的学生网络。由于学生网络仅在正常样本上培训,因此预计将偏离异常情况下的教师网络。这种差异可以用作预先训练的特征向量的互补表示。我们的方法 - 变换 - 利用预先训练的视觉变压器(VIV)来提取两个特征向量:预先接受的(不可知论者)功能和教师 - 学生(微调)功能。我们报告最先进的AUROC导致共同的单向设置,其中一个类被认为是正常的,其余的被认为是异常的,并且多模式设置,其中所有类别但是一个被认为是正常的,只有一个类被认为是异常的。代码可在https://github.com/matancohen1/transformaly获得。
translated by 谷歌翻译
形状空间学习的任务涉及使用良好的概括性属性映射到从潜在表示空间的列车组。通常,真实世界的形状系列具有对称性,可以定义为不改变形状本质的转换。在形状空间学习中纳入对称性的自然方式是要求将其映射到形状空间(编码器)和从形状空间(解码器)映射到相关的对称。在本文中,我们通过引入两个贡献,提出了一种在编码器和解码器中融入设备和解码器的框架:(i)适应建设通用,高效和最大富有表现力的Autorencoders的最近帧平均(FA)框架; (ii)构建自动化器等于分段欧几里德运动的分段应用于形状的不同部分。据我们所知,这是第一个完全分段的欧几里德的欧洲等自动化器建设。培训我们的框架很简单:它使用标准的重建损失,不需要引入新的损失。我们的体系结构由标准(骨干网)架构构成,具有适当的帧平均,使其成为等效。使用隐式的神经表示,在两个刚性形状数据集上测试我们的框架,并使用基于网格的神经网络的铰接形状数据集显示出技术的概括,以通过大边缘改善相关基线。特别地,我们的方法表明了概括铰接姿势的概括性的显着改善。
translated by 谷歌翻译